農業基因組學解決方案
適合您所有研究階段的平臺
來自Affymetrix的農業基因組學解決方案為育種者和研究人員提供了一系列強大而靈活的基因分型工具,可經濟高效地鑒定、驗證并篩查植物和動物中的復雜遺傳性狀。
Affymetrix的遺傳分析工具讓您有能力:
發現
■ 通過遺傳分析技術確定de novo遺傳多樣性
■ 分析群體結構
關聯
■ 鑒定與理想性狀相關的遺傳標記
■ 確認標記-性狀關聯
■ 了解對環境的遺傳適應性
管理
■ 利用遺傳信息來選取期望的結果
■ 篩查植物和動物的理想性狀
基于芯片的基因分型的優點:
經濟
■ 經濟高效的基因分型工具
簡單
■ 在單個技術平臺上結合多個基因分型應用
■ 輕松且簡單的流程
■ 幾小時內即可獲得準確的結果
靈活
■ 高通量的基因分型工具適合高密度或靶向基因分型應用
■ 能基因分型所有您感興趣的相關的標記
■ 低樣品量需求
來自Affymetrix的基于芯片的基因分型產品為從全基因組分析到常規篩查的各種應用提供了完整的解決方案,且準確性和重復性最高、流程簡單、成本最低。
Axiom?基因分型解決方案為您提供多種芯片。您可以選擇要研究物種的自定義內容,也可以選擇來自Axiom?基因組數據庫的基因型經過驗證的內容。
強大
■ 對任何物種、任何基因組規模和任何倍性水平進行基因分型
■ Axiom?分析可檢測插入或缺失(indel)并保證包含所有候選SNP,與相鄰SNP最近可達10 bp,實現了更高效的QTL分析
可靠
■ 低至100 ngDNA,即可獲得基因分型結果,適用于各種樣本類型
■ 基因型檢出率≥99%
擴展
■ 完全自動化的流程,每周可處理最多8張芯片板,而無需增加人工或儀器
■ 一張芯片板上有96個或384個樣本
■ 檢測每個樣品多達260萬個變異
植物基因分型解決方案
自動化檢出多倍體和二倍體基因型,無須手動操作
Affymetrix與學術研究機構和商業種子公司的科學家們合作,為多種植物設計芯片,包括水稻、小麥、玉米、土豆、西紅柿、棉花、大豆、草莓、及景觀植物。這些芯片讓研究人員能夠鑒定出與理想的表型性狀相關的基因。
■ Affymetrix已開發出先進的基因型算法和軟件工具,能對非二倍體復雜基因組自動分析
■ 該算法提供了可調的參 數,可對近交系群體及基因組偏離參考序列的樣品 進行準確分型
Axiom?玉米基因分型芯片
■ 目前唯一一款高密度覆蓋玉米SNP位點的基因分型芯片,包含609,442個SNP和6,759個插入/缺失。
■ 這些標記在288個世界主要的不同品系玉米樣本上進行包含120萬個SNP位點的Axiom? myDesign? GenotypingArray的篩選獲得。
■ AffymetrixSNPolisher? Analysis對SNP進行準確的分型。
Axiom?棉花基因分型芯片
棉花基因分型芯片總共包含35,550個標記
■ 28,158個利用陸地棉(G. hirsutum)的基因富集序列區域鑒定出的種內特異性標記。
■ 7,392個利用基因組簡化方法發現的標記,基于限制性酶切位點的保守性(GR-RSC)。
■ 5,286個在陸地棉(G. hirsutum)和海島棉(G. barbadense)種間組裝過程中發現的標記。
■ 2,016個陸地棉(G. hirsutum)種內特異性標記。
■ 芯片上可以添加380,000個定制標記,或以100%的保真度向Axiom? 384HT myDesign?育種者芯片上轉移多態性標記,以應
對不同群體的樣本研究和分析的需要。
Axiom?小麥基因分型芯片
■ 最高覆蓋度的小麥基因分型芯片。采用96芯片板模式,與布里斯托大學合作,為全球小麥品系所設計,包含817,000個SNP位點,覆蓋整個小麥基因組,大大加速現代小麥分子育種進程。
■ 經育種研究人員精心挑選,在優良小麥品系六倍體中表現多態性,包括了國際小麥測序協會(IWGSC)所確定的片段重疊群的SNP標記,共35,143個標記,分布于A、B和D基因組中。
Axiom?大豆基因分型芯片
總共180,961個標記選自20條大豆染色體,代表野生種和栽培種
■ 114,735個SNP或63.4%的標記位于40,631個基因中。
■ 22,952個SNP位于基因上游或下游5kb的13,259個區域內。
■ 43,274個SNP位于基因間區域。
■ SNP的發現和驗證是利用韓國16個大豆品種和中國31個大豆品種的組合來完成的。
■ 此芯片經過228個品系組合的評估,這些品系包括高深度的重測序品系、不同來源的重復DNA樣本、重復DNA樣本、不同的栽培和野生品系,以及多個F2代和重組自交系。
Axiom?草莓基因分型芯片
芯片對栽培種雜交草莓(Fragaria x ananassa)全基因組進行覆蓋
■ 95,062個來自八倍體和二倍體品種的SNP和插入缺失,包括:1,761個復等位基因SNP和3,751個來自二倍體品種的SNP。
■ 代表多個草莓品種,多樣化的全球育種種質資源集促進了SNP的開發。
■ SNP的發現,通過超過20倍覆蓋度對9個八倍體品種進行測序分析,包括Holiday、Korona以及Holiday與Korona雜交的F1幼苗;兩個可能的二倍體祖先,Fragariamandschurica和F. iinumae;一個已知的二倍體品種,F. vesca測序數據與F. vesca基因組序列進行比對。
Axiom?玫瑰基因分型芯片
■ Axiom?玫瑰基因分型芯片(WagRhSNP Axiom Array)是通過Affymetrix?專家設計項目與荷蘭瓦格寧根大學植物育種組和德
國萊布尼茨大學植物遺傳學研究所合作設計的。
■ 總共68,893個SNP,它們精選自四倍體鮮切花玫瑰和花園玫瑰品種。
■ 應對玫瑰的復雜性狀研究:多倍體連鎖圖譜,SNP單倍型鑒定,重要表型性狀相關聯的QTL分析。
■ 672個樣本利用Axiom 玫瑰基因分型芯片進行了基因分型驗證,包括:四倍體鮮切花玫瑰群體K5,四倍體花園玫瑰,倍性水平從二倍體(2x)到五倍體(5x)的13個品種。
Axiom? myDesign? 基因分型定制芯片
靈活、經濟高效的基因分型定制芯片
Affymetrix為研究人員個人或協作組提供經濟的基因分型定制芯片。與我們的生物信息學團隊合作,為多個應用(從發現到查)設計帶有相關內容的芯片。
每批一致的SNP內容和快速的周轉時間
■ 每一筆訂單獲得100%相同的SNP內容,只要您的研究需要
■ 無SNP丟失-每次芯片上的內容都一致靈活的定制格式
靈活的定制格式
■ 可在同一張芯片上包含多個物種的標記
■ 每張芯片上可設計1,500-675,000個SNP的多重分析,性價比高,讓您獲得更多信息可擴展性
可擴展性
■ 480個樣品的低起定量可滿足您的預算
■ 再次訂購低至192個樣品的定制芯片,以完成您的研究
軟件自動檢出多倍體及二倍體基因型
通過專業的生物信息學支持和簡化的軟件,大大加速您的分析流程
強大的信息學支持
■ Axiom?軟件利用統計學聚類預測工具FitAllo及AxiomGT1算法,能準確并靈活地將基因型區分聚類,并
檢出多倍體及二倍體的基因型
與您現有的系統整合
■ 自動化程度高的選項:基于命令行的Affymetrix? PowerTools(APT)
■ 無縫整合第三方軟件包
■ 與32位和64位的Windows? 7和Windows Server 2008操作系統兼容
簡化的數據分析
■ 包括靈活的SNP過濾和輸出工具,可輸出成PLINK格式
■ 可視化工具包括散點圖、曲線圖和熱圖
■ SNPolisher軟件包能將SNP自動分類,方便您對基因型質控(如下圖所示)
農業基因組學項目最合適的平臺選擇
不犧牲數據質量和周轉時間
新一代測序的快速發展幫助農業科學家建立起基因組的廣泛資源,這將打造成一個“基因組文庫的生動世界”。科研學者、動物育種專家和商業種子公司都開始涉足這個龐大的基因組文庫資源,從而加強農業基因組學策略。通過應用基因組標記來鑒定和選
擇重要性狀,他們的目標是提高生產力和商業可行性。本技術指南整合了同行評議的雜志中介紹的基于序列的基因分型方法的經驗,并比較了芯片在農業基因分型應用中的表現,以便協助您作出 基因分型技術的決策。
基于序列的基因分型概述
基因組選擇和關聯作圖或連鎖不平衡(LD)定位技術需要大量的標記,才能準確估計與基因型相關聯的性狀。這就要求獲得基因型信息所使用的技術必須是經濟高效,且高通量的。全基因組測序以及利用序列捕獲的靶向基因分型比較昂貴,而產生基因型數據的低通量方法對于常規應用而言仍然是不實際的。在確定經濟型測序的目標下,基于測序的基因分型方法,如基于酶切的簡化DNA測序1 (RADseq)和genotyping-by-sequencing (GBS) 2已不斷發展,它們在科研和日常應用中的潛力被不斷引用。
基于測序的方法依賴于對多個樣品添加條形碼,并降低基因分型的成本。這種技術利用限制性內切酶來消化目標限制位點和低拷貝基因組區域,以降低基因組復雜度。這樣就能夠避免帶有重復序列的區域,它們容易產生模糊或假的SNP,且增加測序成本。利用測序而獲得的基因型數據在質量和數量上大有不同,這高度依賴于生物體的基因組大小和結構以及評估的群體。基因組結構的復雜度,如倍性水平、GC含量和重復序列、待研究群體的遺傳多樣性,以及群體內的交配系統,都對測序技術準確輕松收集基因型數據的成本、準確性和效率有著直接的影響。對于那些標記探索落后或不完善的物種而言,基于測序的基因分型技術很有用。GBS和RADseq都能用于至少96個樣品,而不需要訪問參考數據庫或之前發現的標記。這種技術還特別適合篩查數千個多態性,以了解遺傳變異的后果,之前人們依賴極其少量的標記,如微衛星和擴增片段長度多態性(AFLP)。基于測序的基因分型技術已被用于標記的發現。雜志上已經發表了在多個物種上開展的各種實驗的結果,如大麥、玉米、小麥、牛和鱒魚等。在常規的基因分型中使用基于測序的基因分型技術依然遙遙無期,這有幾方面的原因,本文中也列出了其中一些。《Molecular Ecology》雜志關于genotyping-by-sequencing技術的特刊3也總結指出,新的genotyping-by-sequencing技術仍然是不完善的,無法在不同的植物和動物中充分地擴展。
基于序列的基因分型中的關鍵實驗因素
所有的新一代測序平臺都有序列堿基數量的限制,它們由每個測序運行產出。這個有限的產出能力意味著基于測序的基因分型運行必須平衡四個關鍵參數:樣品多重分析的水平、基因組覆蓋度、序列覆蓋度以及每個樣品的成本。樣品的多重分析很關鍵,因為測序儀的有限產出能力必須由運行中包括的所有樣品來共享。更多樣品意味著每個樣品的測序堿基更少。
基因組覆蓋度也很重要,因為它決定了被分析基因組的百分比,因此,也決定了基因組中可獲取的標記數量。更高的基因組覆蓋度是以犧牲其他參數中的一個為代價而實現的,因為它需要更多的測序儀產出能力。
序列覆蓋度(或序列“深度”)決定了數據集中每個序列的平均讀取數量。實際上,一些序列頻繁被讀取,而一些較少被讀取,或根本沒有。序列覆蓋度影響數據中缺口的百分比以及基因型準確性。準確的基因型檢出通常需要每個SNP上30倍或更高的覆蓋度。增加序列覆蓋度也迫使在其他地方妥協,以平衡測序儀能力的使用。當然,樣品多重分析、基因組覆蓋度和序列覆蓋度都能通過在測序儀上投入更多運行來改善,但這會使成本迅速增加。本技術指南討論了每種新型測序技術中實驗方法的影響、基因組復雜度對標記數量的影響,以及應用范圍。實驗方法的變化可明顯增加任何基因分型項目的成本,對于30,000個標記的項目,可能增加五倍 。
應用
基因組覆蓋度高度依賴于基因分型技術和方法的選擇,而這個選擇最終取決于感興趣的應用。每種方法提供了不同水平的植物或動物基因組覆蓋度。這影響了可獲取的標記數量,也決定了哪種方法最適合目標應用。這些應用的范圍從群體基因組掃描到確定系統發育。圖2顯示了不同的基于測序和芯片的基因分型方法如何定位到各種應用,以及與覆蓋基因組相關的相對成本。每種基于測序的方法所覆蓋的標記數量取決于實驗參數,如限制性內切酶的類型、DNA的質量和數量以及分析技術。每個應用的標記數量如圖2所示,是被測序的基因組部分的函數。準確基因分型所需的標記數量是基因組水平的連鎖不平衡的數量、系譜中捕獲的重組事件、各組之間分歧的函數。4通過改變分析中的限制性內切酶,以增加標簽數量,可提高基因組覆蓋度。然而,正如上文指出的,提高基因組覆蓋度是以更低的樣品多重分析、更低的序列覆蓋度或每個樣品的更高成本為代價的。
群體基因組掃描和測序驗證:芯片和基于測序的基因分型技術已經用于開展群體掃描和驗證那些利用新一代測序發現的標記。基于測序的基因分型策略容易檢出假的SNP,因為測序技術存在固有誤差,拷貝數變異無法定位到參考基因組,或來自旁系同源或同源基因。通過更深度的序列覆蓋,假的SNP可排除,但這會增加每個樣品的成本,通過使用雙單倍體或高質量的參考序列,也可避免這一問題,但這些會導致更復雜的信息學分析,而嚴格的過濾條件會丟棄大部分的測序數據。通過運行群體內的大量樣品來驗證標記,可鑒定出信息量大且重復的標記。高密度的Axiom?芯片已成功應用于驗證測序發現和排除假的SNP,這些SNP是許多物種測序錯誤的結果,包括雞5和三文魚6。芯片帶來了一種簡單的方法,可以評估不同群體中的數百萬個標記,并驗證那些通過不同測序技術(如RADseq、RNAseq和重測序)發現的標記。
關聯作圖、基因組選擇和拷貝數應用:關聯作圖(AM)技術使用大量的多態性標記來克服QTL定位中的挑戰和限制。關聯作圖依賴連鎖不平衡和現有基因庫中存在的重組,來開展隨機交配群體、各系或種質間的表型-基因型關聯。8 在關聯作圖研究中,更多的標記增加了找到或定位致病變異的可能性,9 因此標記越多越好。盡管關聯作圖可通過基于測序的基因分型方法來完成,但芯片通常能更經濟高效地對高密度的標記進行基因分型,且有著更好的數據質量和完整性。
密集的標記也可用在基因組選擇中,其中在基因分型和表型檢測中同時估計標記的影響,或訓練群體,然后用來預測選擇候選物的價值。基因組選擇的準確性隨標記密度的增加而增加。據估計,50,000個標記已足以準確預測這些關系。10 拷貝數變異檢測實現了復雜性狀中可遺傳變異的研究和鑒定。
系譜和數量性狀位點(QTL)作圖:與關聯作圖不同,QTL作圖查看多個基因對數量性狀的影響,如三文魚控制對海虱的抗性或魚卵大小的QTL。QTL鑒定是基于雙親雜交,需要通過精細作圖鑒定染色體區域的單個基因,因此需要大量的雜交來產生足夠數量的減數分裂事件。系譜基因分型利用QTL檢測中的育種材料,它們覆蓋多代,通過多次雜交與系譜中的共同祖先相關聯。這實現了育種項目中存在的大部分等位基因的鑒定和使用。
系統發育和群體定位:在各個研究機構維護的種質和育種者維護的種質中,群體結構可能有所不同。不同的群體結構需要不同的全基因組關聯研究(GWAS)方法。通過構建遺傳或連鎖圖譜來調查群體結構和開展系統發育分析,可提供基因組重組率的信息。了解群體結構也有助于選擇適當的標記和密度。通過研究很小一部分基因組中的標記,可完成群體分析。
工作流程:基于芯片的技術和基于測序的基因分型技術的工作流程比較如圖3所示。基于測序的基因分型技術依賴條形碼技術對樣品進行多重分析(例如,96個樣品在單個通道中測序將需要96個樣品條形碼)。文庫制備需要選擇適合該物種和所需標記數量的限制性內切酶。此過程需要優化,以避免引物二聚體等問題,這些可能增加測序的費用。在文庫制備之后,真正的測序約需11個小時至11天不等,這取決于儀器的能力和測序基因組的百分比。更高的樣品多重分析也并非不可能,但正如之前提到的,必須平衡基因組大小,測序基因組的百分比以及單個通道中的序列覆蓋度。測序之后,數據經過過濾,條形碼被解復用,以提取每個樣品的標記。使用任一基因分型技術的重要考慮因素是計算設備和分析流程。分析流程需要根據感興趣的物種、實驗方法、待研究的群體和技術本身來定制。
James Hutton研究所近期發表的一篇文章11得出結論,利用GBS來研究大麥的一個重要結果是,與目前實驗室中使用的多重SNP分析技術相比,GBS數據在處理和隨后的分析上更具挑戰性。采用基于測序的基因分型技術存在諸多挑戰,包括計算設備,維護定制分析流程的生物信息學專家,開展比對和分析的軟件,以及提取有用的基因分型數據所需的時間。測序技術的數據分析通常在“云端”開展,以盡量減少本地數據存儲和計算要求。變異檢出往往通過定制的軟件來開展,這些軟件檢出各種基因型。每個存儲技術都具有與數據轉移、存儲和檢索相關的成本,這會影響基因分型項目的成本。
相比之下,基于芯片的基因分型技術能輕松地利用臺式工作站,對每個樣品的數百萬個數據點進行基因分型,在降低設備費用的同時提高操作效率。這種芯片法基因分型的簡約、易用讓芯片可在各種場景和環境下使用,對常規育種應用而言尤其有吸引力,因為大量樣品處理和周轉時間都很重要。
文庫制備中的DNA質量和數量:基于測序的基因分型技術對DNA濃度和DNA質量的要求仍然是實際應用中的嚴重挑戰之一。DNA測序需要幾微克(μg)已純化的高分子量基因組DNA,且無污染和共生體。細菌污染可能影響測序,因為DNA材料的隨機擴增意味著細
菌DNA會與待分型的生物樣品一起被測序。
標記的數量和類型:芯片技術與測序技術的最大差異在于芯片靶定特定的基因組區域或特定SNP的能力,如圖4所示。基于芯片的技術能夠靶定特定染色體區域內任何數量的標記,其設計策略采用在基因組中均勻間隔的標記,如有必要,采用基因組特定區域內更高間隔的標記。這種靈活性讓芯片可應用于GWAS、12 QTL作圖、關聯作圖和基因組選擇,并具有一定量的確定偏差。通過在多個品種上開展SNP研究,可降低確定偏差。
表1:利用芯片和基于測序的基因分型技術對生物樣品進行基因分型所需的DNA量。基于測序的基因分型技術所需的濃度是芯片的2倍至30倍。
基于測序的基因分型技術依賴DNA庫的隨機抽樣,而標記的數量與待測序區域的數量和大小成正比。當待研究群體的限制性位點保守時,基因組區域預計沒有偏差。因此,樣品間的標記不保守,并且沒有兩個樣品能提供相同的一組標記。這導致數據丟失,并需要復雜的信息學通過推算來恢復丟失的數據。樣品間不保守的標記必須通過參考基因組來推算,或利用覆蓋度非常高的測序(18倍或更高)通過相關品系的單倍型來推算。
選擇測序方法的考慮因素
對于上面提到的任何應用,在決定采用哪種方法之前,必須考慮到影響基因分型的各種因素。
雜合子檢出錯誤:基于測序的基因分型技術,尤其是GBS,依賴低覆蓋度來降低成本,并獲得大量標記,這些標記可用于關聯作圖。這種實驗方法的缺點在于雜合子的檢出明顯過低,這影響了基因型準確性。GBS檢出不足50%的雜合子。一項關于DNA測序所需覆蓋度的研究14預測,對于每個雜合二倍體,檢測99.75%位點上的兩個等位基因至少一次,需要13.5倍的深度。而檢測每個等位基因至少兩次,將需要18倍的深度。增加測序覆蓋度導致每個樣品的成本更高,并使得測序比芯片更為昂貴。關于葡萄的研究表明,以5.7倍的平均深度基因分型時,30-50%的雜合子未檢出。15 而芯片上雜合子的檢出準確性是由芯片設計決定的,這是高度可預測的,使得基因型檢出準確性接近100%。芯片所使用的進一步設計方法能夠對GC含量高于60%的基因組區域進行基因分型。
基因組覆蓋度:任何技術所帶來的標記數量有望實現基因組的均一覆蓋。基于測序的基因分型技術表現出數據丟失,這導致基因組的不均一覆蓋。丟失的數據是實驗條件和基因組結構的函數所造成,源于文庫復雜度(即獨特序列標簽的數量)和文庫的序列覆蓋度的組合。丟失數據的量與文庫制備的多重水平以及RE消化所使用的酶直接相關。測序技術中限制性內切酶的選擇影響了等位基因信號丟失,從而影響群體遺傳學的統計數據。稀有標記需要切割不頻繁的酶,隨后產生較少的標記。若使用頻繁切割的酶,會產生較多的標記,但覆蓋度明顯降低,導致大量的數據丟失。
所有代表性降低的測序技術依賴基因組復雜度降低,從而降低成本并增加通量。復雜度降低的缺點在于所獲得的基因型數據有著明顯的丟失數據。16 基因型數據可能丟失,因為基因組結構中的內在差異,如存在-缺失差異、多態性限制位點的變異,以及差異甲基化,這影響代表性降低的測序技術中所使用的甲基化敏感的酶。丟失的數據對QTL作圖很重要,其中親本系的基因型數據質量對作圖群體的基因型檢出至關重要。親本系需要以非常高的覆蓋度測序。
圖5:說明了序列覆蓋度與丟失數據之間的關系,這項結果是由近期一篇論文發表的,它比較了不同平臺上基于測序的基因分型。17 此研究表明,在10倍覆蓋度下,可獲得1,000個標記,且50%的數據丟失,而低覆蓋度下的標記數量增加至30,000個時,90%的數據丟失。
基因型數據的預期量和實際量可能差異巨大。最近一項使用GBS的玉米研究18表明,基因組位置分布的傾斜覆蓋和不成比例的區域不代表最初預計的信息。這限制了測序技術的范圍和應用,被認為無法用于關聯研究的精細作圖。大多數位點的基因型數據只能通過大幅增加read深度來實現,而這會影響測序成本。
丟失的數據可利用數據推算技術來恢復,也就是將數據與參考基因組比對,這需要大量的投資、先進的分析,以及復雜的流程,能過濾、排序并比對序列數據。缺乏簡單易用且統一的信息學流程仍然是在常規應用中采用基于測序的基因分型技術的第二大障礙。推算特別適合親緣關系相近的個體,但對于高度多樣化的樣品,丟失的數據可替換為近鄰的等位基因。19 當丟失數據的比例高時,基于測序的基因分型技術也會丟失低頻率的等位基因。替代方案是追求更高深度的測序,這會導致每個樣品的成本更高。
LD和多態性頻率:對于收集基因型數據的群體而言,它的基因組多樣性和交配系統對測序成本有很大的影響。從一個較窄的遺傳基礎衍生而來的群體表現出較少的多態性,需要更多的測序,并增加總成本。四倍體棉花等物種便是如此,其每1,000-1,500個堿基表現出一個多態性。物種內的LD衰減也決定了多個群體的關聯作圖所需的標記數量。圖6顯示了LD衰減對標記分辨率的影響。對LD衰減高的物種而言,標記密度的低分辨率將導致基因組的覆蓋度不足。水產養殖物種(如鱒魚)和植物(包括玉米、葡萄和甜菜)表現出低的LD,在關聯分析時需要大量的片段。近期一項關于鱒魚的全基因組關聯研究20使用了基于測序的基因分型技術,并得出結論,LD的快速衰減需要更高水平的標記密度,才能高效地開展全基因組關聯研究。
拷貝數應用:基于芯片和測序的基因分型技術可被用來開展拷貝數研究,以鑒定復雜性狀的遺傳變異。這兩種技術都能檢測拷貝數獲得。但基于測序的基因分型技術在低覆蓋度下難以鑒定拷貝數丟失,因為片段丟失顯示為低覆蓋度的標記。21 更高覆蓋度將實現CNV丟失的檢測,但成本有望增加40-50%。
基因組復雜度:多倍性是植物和某些動物的更復雜屬性之一。60-70%的被子植物是多倍體,其倍性水平從葡萄籽的四倍體到草莓的八倍體,而甘蔗更為復雜,其倍性水平從12-16倍不等。多倍體物種表現出基因組復制。多倍體的挑戰如下:(i) 多倍體物種需要更高的序列覆蓋度,才能高效覆蓋更大的基因組,而這增加了測序成本。(ii) 基因組組裝和作圖算法很復雜,容易出錯,特別是在組裝旁系同源/直系同源區域時。對于多倍體且雜合的物種,每個指定位點的數據推算都需要復雜的分析流程,而這不能用于常規的育種應用。22 此外,更深度的測序增加了總成本。測定基因組中每個位點的等位基因劑量信息對基因組選擇模式很重要。在使用芯片對多倍體物種進行基因分型時,來自亞基因組的信號導致聚類壓縮。多倍體物種也表現出不同水平的倍性,因為干擾突變導致復雜度降低。常規的育種應用必須有一個分析流程,能自動聚類并分配基因型,以滿足嚴格的育種時限要求。Axiom? GT1算法用貝葉斯統計來準確分配基因型并讓多倍體基因組的數據聚類。圖7顯示了一個例子。自動流程讓人們能夠輕松準確地對數千個樣品的數千個標記進行基因分型。
為您的基因分型項目選擇適當方案的指南:鑒于芯片技術和測序技術的進步,科學家們需要認識到使用測序技術的挑戰,以及使用測序和芯片技術的偏向。下列問題可幫助您選擇適當的技術,應用在科研或基因組育種項目所考慮的物種上:
獲取基因型數據所使用的分析是否與所考慮物種的基因組結構兼容,它是否能帶來足夠量的可靠標記?
是否有需要靶定特定染色體區域,需要采用何種標記策略以覆蓋整個基因組?
所考慮物種的潛在LD結構如何?
此物種是不是多倍體,倍性水平如何?
將此技術引入科研或育種項目需要哪種信息學流程和專業知識?
需要多少個小時才能檢出基因型并聚類數據?
所考慮的群體是近交群體,還是多樣化的無關個體,預計雜合水平如何?
需要對多少個樣品進行基因分型,周轉時間或出結果的時間是否有限制?
需要何種深度的序列覆蓋,才能準確檢出基因型?
數據缺口有什么影響,您將如何恢復丟失的基因型?
考慮到丟失數據和生物信息學流程和分析所需的資源,分析的成本如何?
技術的通量、周轉時間、分析的可靠性以及技術所使用的儀器如何?
育種項目可接受的偏差量如何,是否有辦法繞過偏差?
需要將多少種不同的技術或分析整合到科研或育種項目中,進行有效驗證、標記性狀或常規使用?
芯片技術不斷發展,形成Axiom? 384HT的格式。這個能以非常經濟的價格點同時處理384個樣品的創新讓此技術從科研走向主流的商業化農業基因組學。在優先考慮周轉時間、易用性和數據質量的應用中,芯片仍然是首選技術。
基于芯片的技術在單一平臺上合并了多個基因分型應用,提供了靈活性和經濟性。分析和信息學分析流程的創新讓所有感興趣的相關標記能夠不受限制地基因分型,其結果可通過簡單的流程在幾小時內得到。Axiom?基因分型解決方案,來自Affymetrix的芯片
技術演化,為全基因組分析到常規篩查的應用提供了完整的解決方案,具有最高的準確性和重復性、簡化的流程和最低的成本 。
基于測序的基因分型技術的挑戰總結在表2。
表2:表2比較了基于測序的基因分型技術(如RADseq和GBS)與Axiom? Genotyping Arrays的特點。新技術由于忽視了實際實驗條件和基因組復雜度而呈現的較低成本, 卻往往被宣傳為替代芯片技術的理由。
Affymetrix的農業基因組學基因分型方案為育種人員和研究人員提供了一種強大而經濟的工具,可鑒定、驗證和篩查植物或動物中復雜的遺傳性狀,實現更快速、更精確的育種。Axiom?基因分型一開始是從SNP文庫資源中選擇標記內容,接著設計SNP芯片,最后用芯片來鑒定樣品的基因型。這為育種人員和研究人員提供了一種功能性的基因分型工具,讓其應用在標記-性狀關聯、全基因組關聯研究(GWAS)、數量性狀位點(QTL)分析和基因組選擇項目中。
鑒于genotyping-by-sequencing技術在數據管理、計算需求上的挑戰,且定制信息學流程需要根據每個物種和樣品群體來定制,芯片在數據質量、完整性、分析和常規育種的應用上仍是到目前為止最簡單的技術。
總的來說,適用于動物和植物基因分型的Axiom?基因分型解決方案讓人們能夠為具有商業價值的物種定制芯片上的基因分型內容。Axiom基因分型解決方案包括物種特異和定制的芯片,其經過驗證的基因組內容來自Axiom?基因組數據庫,以及完整的試劑盒、數據分析工具,和一個利用GeneTitan?多通道(MC)儀器的全自動流程。
References and publications
1 Baird N. A., et al. Rapid SNP discovery and genetic mapping using sequenced RAD markers. PLoS ONE 3:e3376 (2008). doi:10.1371/journal.pone.0003376
2 Elshire R. J., et al. A robust, simple genotyping-by-sequencing (GBS) approach for high diversity species. PLoS ONE 6:e19379 (2011). doi:10.1371/journal.pone.0019379
3 Narum S. R., et al. Genotyping-by-sequencing in ecological and conservation genomics. Molecular Ecology 22: 2841?2847 (2013). doi:10.1111/mec.12350
4 Peterson B. K., et al. Double digest RADseq: an inexpensive method for de novo SNP discovery and genotyping in model and non-model species. PLoS ONE 7(5):e37135 (2012).
doi:10.1371/journal.pone.0037135
5 Kranis A., et al. Development of a high density 600K SNP genotyping array for chicken. BMC Genomics 14:59 (2013). doi:10.1186/1471-2164-14-59
6 Houston R. D., et al. Development and validation of a high density SNP genotyping array for Atlantic salmon (Salmo salar). BMC Genomics 15:90 (2014). doi:10.1186/1471-
2164-15-90
7 Affymetrix application note Mitigating sequencing errors, monomorphs, and poor performing markers during de novo SNP selection for genotyping applications (2013) P/N
DNA02261 Rev. 1
8 Ersoz E. S., Yu J., Buckler E. S. Applications of linkage disequilibrium and association mapping in crop plants, in Genomics-Assisted Crop Improvement: vol 1: Genomics
Approaches and Platforms, eds. Varshney R. K., Tuberosa R. Springer, pp. 97-119 (2007). doi:10.1007/978-1-4020-6295-7_5
9 Poland J. A., et al. Genotyping-by-sequencing for plant breeding and genetics. The Plant Genome 5(3):92?102 (2012). doi:10.3835/plantgenome2012.05.0005
10 Meuwissen T., et al. Accelerating improvement of livestock with genomic selection. Annual Review of Animal Biosciences 1:221-237 (2013). doi:10.1146/annurevanimal-
031412?103705
11 Hui L., et al. An evaluation of genotyping by sequencing (GBS) to map the Breviaristatum-e (ari-e) locus in cultivated barley. BMC Genomics 15:104 (2014). doi:10.1186/1471-
2164-15-104
12 Liu S., et al. Development of the catfish 250K SNP array for genome-wide association studies. BMC Research Notes 7:135 (2014). doi:10.1186/1756-0500-7-135
13 Cavangh C. R., et al. Genome-wide comparative diversity uncovers multiple targets of selection for improvement in hexaploid wheat landraces and cultivars. 110(20):8057–8062.
doi:10.1073/pnas.1217133110
14 Wendl M. C., et al. Aspects of coverage in medical DNA sequencing. BMC Bioinformatics 9:239 (2008). doi: 10.1186/1471-2105-9-239
15 Hyma K. E., GBS Usage Cases: Non-model Organisms. (2013). http://cbsu.tc.cornell.edu/lab/doc/GBS_nonmodel_Sept_2013.pdf
16 Davey J. W., et al. Genome-wide genetic marker discovery and genotyping using next-generation sequencing. Nature Reviews Genetics 12(7):499–510 (2011). doi:10.1038/
nrg3012
17 Mascher M., et al. Application of genotyping-by-sequencing on semiconductor sequencing platforms: a comparison of genetic and reference-based marker ordering in barley.
PLoS ONE 8(10):e76925 (2013). doi:10.1371/journal.pone.0076925
18 Beissinger T. M., et al. Marker density and read depth for genotyping populations using genotyping-by-sequencing. Genetics 193(4):1073–1081 (2013). doi:10.1534/
<p style